Graph neural networks have shown to learn effective node representations, enabling node-, link-, and graph-level inference. Conventional graph networks assume static relations between nodes, while relations between entities in a video often evolve over time, with nodes entering and exiting dynamically. In such temporally-dynamic graphs, a core problem is inferring the future state of spatio-temporal edges, which can constitute multiple types of relations. To address this problem, we propose MTD-GNN, a graph network for predicting temporally-dynamic edges for multiple types of relations. We propose a factorized spatio-temporal graph attention layer to learn dynamic node representations and present a multi-task edge prediction loss that models multiple relations simultaneously. The proposed architecture operates on top of scene graphs that we obtain from videos through object detection and spatio-temporal linking. Experimental evaluations on ActionGenome and CLEVRER show that modeling multiple relations in our temporally-dynamic graph network can be mutually beneficial, outperforming existing static and spatio-temporal graph neural networks, as well as state-of-the-art predicate classification methods.
translated by 谷歌翻译
人类直觉允许在他们从未经历过的情况下发现异常的驾驶情况。就像人类检测到这些异常情况并采取对策以防止碰撞一样,自动驾驶汽车需要异常检测机制。但是,文献缺乏比较异常检测算法的标准基准。我们填补了空白,并提出了R-U-MAAD基准测试,以用于多代理轨迹中无监督的异常检测。目的是学习从没有标签的训练序列中的正常驾驶的表示,然后检测异常。我们将argvoss运动的预测数据集用于培训,并提出了160个序列的测试数据集,该数据集在城市环境中具有人类通知的异常。为此,我们结合了现实世界中的轨迹和场景依赖性异常驾驶的重播。在我们的实验中,我们比较了11个基线,包括线性模型,深层自动编码器和使用标准异常检测指标的一级分类模型。深度重建和端到端的一级方法显示出令人鼓舞的结果。基准模型将公开可用。
translated by 谷歌翻译
元学习是一种处理不平衡和嘈杂标签学习的有效方法,但它取决于验证集,其中包含随机选择,手动标记和平衡的分布式样品。该验证集的随机选择和手动标记和平衡不仅是元学习的最佳选择,而且随着类的数量,它的缩放范围也很差。因此,最近的元学习论文提出了临时启发式方法来自动构建和标记此验证集,但是这些启发式方法仍然是元学习的最佳选择。在本文中,我们分析了元学习算法,并提出了新的标准来表征验证集的实用性,基于:1)验证集的信息性; 2)集合的班级分配余额; 3)集合标签的正确性。此外,我们提出了一种新的不平衡的嘈杂标签元学习(INOLML)算法,该算法会自动构建通过上面的标准最大化其实用程序来构建验证。我们的方法比以前的元学习方法显示出显着改进,并在几个基准上设定了新的最新技术。
translated by 谷歌翻译
单眼相机传感器对于智能车辆操作和自动驾驶帮助至关重要,并且在交通控制基础设施中也很大程度上使用。但是,校准单眼摄像机很耗时,通常需要大量的手动干预。在这项工作中,我们提出了一种外部摄像机校准方法,该方法通过利用来自图像和点云的语义分割信息来自动化参数估计。我们的方法依赖于对摄像头姿势的粗略初始测量,并建立在具有高精度定位的车辆上的雷达传感器上,以捕获相机环境的点云。之后,通过执行语义分段传感器数据的激光镜头到相机的注册来获得相机和世界坐标空间之间的映射。我们在模拟和现实世界中评估了我们的方法,以证明校准结果中的低误差测量值。我们的方法适用于基础设施传感器和车辆传感器,而它不需要摄像机平台的运动。
translated by 谷歌翻译
深层神经网络目前为显微镜图像细胞分割提供了令人鼓舞的结果,但是它们需要大规模标记的数据库,这是一个昂贵且耗时的过程。在这项工作中,我们通过将自我监督与半监督的学习相结合来放松标签要求。我们提出了基于边缘的地图的预测,以自我监督未标记的图像的训练,该图像与少数标记的图像的监督培训相结合,用于学习分割任务。在我们的实验中,我们在几次显微镜图像细胞分割基准上进行了评估,并表明只有少数注释的图像,例如原始训练集的10%足以让我们的方法与1到10次的完全注释的数据库达到类似的性能。我们的代码和训练有素的模型公开可用
translated by 谷歌翻译
在单眼深度估计中,图像上下文中的干扰(例如移动对象或反射材料)很容易导致错误的预测。因此,每个像素的不确定性估计是必要的,尤其是针对自动驾驶等安全至关重要的应用。我们提出了以深神经网络为代表的已经训练的已训练的深度估计模型的事后不确定性估计方法。不确定性是用辅助损失函数提取的梯度估计的。为了避免依靠地面真实信息来定义损失定义,我们根据图像的深度预测及其水平翻转的对应关系提出了辅助损失函数。我们的方法可在不需要重新训练神经网络的情况下,实现了Kitti和Nyu深度V2基准的最新不确定性估计结果。模型和代码可在https://github.com/jhornauer/grumodepth上公开获得。
translated by 谷歌翻译
在这项工作中,我们提出了MotionMixer,这是一个有效的3D人体姿势预测模型,仅基于多层感知器(MLP)。MotionMixer通过顺序混合这两种方式来学习时空3D身体姿势依赖性。给定3D身体姿势的堆叠序列,空间MLP提取物是身体关节的细粒空间依赖性。然后,随着时间的推移,身体关节的相互作用由时间MLP建模。最终将时空混合特征汇总并解码以获得未来的运动。为了校准姿势序列中每个时间步的影响,我们利用挤压和兴奋(SE)块。我们使用标准评估协议评估了36M,Amass和3DPW数据集的方法。对于所有评估,我们展示了最先进的性能,同时具有具有较少参数的模型。我们的代码可在以下网址找到:https://github.com/motionmlp/motionmixer
translated by 谷歌翻译
手势识别对于自动驾驶汽车与人类的相互作用至关重要。尽管当前的方法着重于结合几种模式,例如图像特征,关键点和骨向量,但我们提出了神经网络体系结构,该结构仅通过身体骨架输入数据提供最新的结果。我们建议在自动驾驶汽车的背景下,为识别手势识别的时空多层感知器。给定的3D主体随着时间的推移,我们定义时间和空间混合操作以提取两个域中的特征。此外,每个时间步骤的重要性都会通过挤压和激发层重新加权。提供了对TCG和Drive&ACT数据集的广泛评估,以展示我们方法的有希望的性能。此外,我们将模型部署到自动驾驶汽车上,以显示其实时功能和稳定的执行。
translated by 谷歌翻译
医疗IM年龄分析(MIA)中的有效半监督学习(SSL)必须解决两个挑战:1)在多级(例如病变分类)和多标签(例如,多疾病诊断)问题上, 2)处理不平衡的学习(因为疾病患病率的高度)。解释SSL MIA的一个策略基于伪标签策略,但是有几个缺点。伪标签具有比一致性学习比一致性的精度,它没有针对多级和多标签问题的特定设计,并且可以通过不平衡的学习来挑战。在本文中,与通过阈值选择自信的伪标签的传统方法不同,我们提出了一种新的SSL算法,称为ANT-CURICULUM伪标签(ACPL),这引入了新颖的技术选择信息,改善培训平衡并允许模型。为多标签和多级问题工作,并通过准确的分类器组合估算伪标签(提高伪标签精度)。我们运行广泛的实验,以评估两种公共医学图像分类基准的ACPL:胸部X射线14用于胸部疾病的多标签分类和SISIC2018用于皮肤病变多级分类。我们的方法在两个数据集上胜过以前的SOTA SSL方法。
translated by 谷歌翻译
使用输入图像,功能或网络扰动的一致性学习已经显示出半监督语义分割的显着结果,但这种方法可能受到未准确的未标记训练图像的预测的严重影响。这些不准确的预测有两种后果:1)基于“严格”的跨熵(CE)损失的培训可以容易地过度造成预测错误,导致确认偏见; 2)应用于这些不准确的预测的扰动将使用可能错误的预测作为训练信号,降低一致性学习。在本文中,我们解决了具有新颖的教师(MT)模型的一致性学习方法的预测准确性问题,包括新的辅助教师,并通过更严格的信心更换MT的均方误差(MSE) - 加权交叉熵(CONF-CE)损失。该模型的准确预测使我们能够利用网络,输入数据和特征扰动的具有挑战性的组合,以改善特征扰动的一致性学习概括,其中包括新的对抗扰动。 Public基准的结果表明,我们的方法通过现场上一个SOTA方法实现了显着的改进。
translated by 谷歌翻译